[Day 03] 第一代定序與 NGS 次世代定序原理 (Illumina)

2022 iThome 鐵人賽

DAY 3

AI & Data

16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣系列第 3 篇

14th鐵人賽

MDChain

2022-09-18 10:13:18

11943 瀏覽

分享至

定序的迭代

「定序」就是將一段序列判讀出ATCG排列的順序，
「迭代」則是為了接近最終目標而反覆改良的過程，

為了能精準有效率知道生物的基因序列，
DNA定序技術一代一代的不斷精進改良。

定序的歷史其實很有趣，
從利用嗜菌體定序、2D電泳，
人類基因組計畫之民間與政府的技術競賽，
故事於網路上資源相當多就不再贅述。
這邊則以1977年Sanger大師發明Chain-termination為界線，
往後介紹人類解開生物程式碼的逆向工程。

第一代定序 Sanger Sequencing

又名 Sequencing-Based Typing
(Gauthier, M. G., 2008)

將樣本加熱，使 DNA 雙股打開
將有興趣的片段複製變多，
以此得到一大堆有興趣的片段 (用一般的PCR放大特定片段)
加上引子(Primer)
準備4個管子，皆含有聚合酶，dNTP，
但分別加入 ddATP、ddTTP、ddCTP、ddGTP 在不同管子 (以4種顏色示意)
開始合成(PCR)，過程中聚合酶合成某片段時，若抓到 ddNTP 的材料，
會使得下一個 cycle，該片段因聚合酶無法繼續延長而終止
因為遇上 ddNTP 的機率是隨機，最終管內會有長度不一個 DNA 片段(末端含有 ddNTP )，然後將原始 Template (模板)移除
把4個管分別跑在不同 well 的膠上，開始跑電泳~
由下往上讀，就是目標DNA的序列啦!

其採用的原理是 Chain-termination，也就是藉由合成中終止的方式，
獲得長度不一片段，用跑膠判斷序列

DNA sequencing

現今已經使用毛細管電泳及機器偵測(右上)，因為第一代定序成本較低，時至今日，PCR 或切膠產物的低通量定序還是使用 Sanger 為主。Reference : Microbe Notes

次世代定序 NGS - 以 Illumina 為例

為了解決長片段、大量定序需求以及效率低落等等心累的問題，
經歷多家廠商的競爭，Illumina 公司開發的新技術成功打贏市場，
目前 RNA seq、Single cell sequencing、
Whole genome sequencing、Metagenomic(16S, 18S等等)
主流都採用 Illumina 的 NGS，他們的原理相同，
差別在於樣本的前處理(e.g 轉 cDNA or 夾16S)以及後續分析軟體的流程。
而Illumina 採用的原理是 Bridge amplification + Sequencing by Synthesis (SBS)，

ezgif com-gif-maker (9)

他們設計一款 Flow cell 並在像是跑道的地方舖上一層草皮(lawn)，
草皮長了兩種 oligos 序列(像是長了兩種小草，分別為紫色跟藍色)。

oligos 指的是短片段單股的 DNA 或 RNA ，又名 Oligonucleotides。

接下來，了解下列步驟非常重要，因為後續分析會用到步驟中很多的觀念 :

Part A - 前處理
1. 將DNA樣本打碎 (約80bp) (第一次看到先打碎序列其實蠻反邏輯的XD
2. 加入Adapters，並使用連接酶加在序列片段頭尾
  (可以想像改良過的Primer，差別是頭尾都有，後續可以幫助放大片段)
  - Adapters =
    目標序列結合位(sequencing binding site)(綠)
  - indices(黃、紅) + oligos互補序列(紫、藍)
    oligos 互補序列就是為了跟草皮(lawn)小草(oligos)結合
  - indices 又名 index，帶有 barcode，每個DNA樣本都會有獨特的條碼。
    能同時將不同樣本放在同一個 Flow cell 多樣本大量定序，
    這樣子 Pooling 的方式稱為 Sample Multiplexing。
    像是大家帶著條碼手環泡在大眾池，這動作英文稱為 pooling，
    然後再拿著條碼器(定序)快速逼手環就知道誰是誰了。
3. 帶有Adapters序列片段與oligos結合
4. 聚合酶開始複製，使得草皮上的 oligos 被延長 後也長得與序列片段相同。
  被延長後的 oligos 稱為 Hybridized fragment (雜合片段)，
  再將原序列片段洗去，他不要了，只留下 lawn上的雜合片段。
5. 因為另一端也與 lawn 上 oligos 互補，所以雜合片段會彎腰結合，
  形成像是橋 (Bridge) 狀的序列，
  接著聚合酶又來複製了，形成兩座 DNA 橋 (Double stranded bridge)
6. 重複第4~5很多很多次，形成上百萬座橋
  
  稱為橋式放大(Bridge amplification)。
7. 然後就會獲得很多根巧克力棒，洗去紫色底座 oligos 上的雜合片段，
  留下藍色底座 oligos 上的雜合片段
  
  紫色底座的序列都飛走惹，剩下藍色底座。
Part B - Forward 端定序
1. 在開始定序前，3'端的 oligos 會用一小段序列擋住，
  因為這段序列是加上去的，不需要被定序
  接下來，帶有四種螢光的dNTP加入到Flow cell中，
  只要結合到雜合片段，就會發光!
  
  稱為 Sequencing by Synthesis (SBS) ，因為一邊合成一邊定序。
2. 電腦就會偵測螢光出現的順序，進行讀取，其實超級漂亮的!!
3. 加入一段能辨識indices的primer，
  再加入dNTP與聚合酶，
  一樣用螢光讀取的方式獲得這些目標序列的 barcode。
  
  稱為 Index Read。
4. 洗去indices的primer 還有各種一切，
  留下巧克力棒(Hybridized fragment)，Forward 定序讀完了，來讀 Reverse
  
  稱為 Paired-End Sequencing。
Part C - Reverse 端定序
1. 雜合片段彎腰與另一個 oligos 結合，並加入dNTP與聚合酶，
  獲得 Reverse 的 Index (與Forward Index相同)
2. 可愛聚合酶又登場啦，延長形成兩座 DNA 橋 (Double stranded bridge)，
  其實有上百萬對橋
3. 與7.相反，這次洗去 Forward oligos 上的雜合片段，
  留下 Reverse oligos 上的雜合片段
4. 同8.，oligos 會用一小段序列去擋住，
  因為這段序列是加上去的，不需要被定序
5. 同9.，一邊合成一邊定序
因為步驟與 Part C 類似，就不放動畫了，有興趣可以觀看Illumina出品的動畫。
Part D 初步資料分析
1. Illumina 會利用演算法將這些上述 Barcode、80bp的破碎序列資訊，
  分類並組成一條一條完整序列，
  最終長度則是依照給予的樣本為定，
  以本系列文章為例，我們選擇16S V3~V4區域，
  每個檔案的就會含有數萬條長度為250bp的序列，
  並且每個樣本會有2個檔案，
  因為 Paired-End Sequencing 含有 Forward 與 Reverse，
  檔案內也會根據螢光偵測到的波型完整度，
  給予每個mer判定後的品質分數(Quality score)。